智能论文笔记

JoJoGAN: One Shot Face Stylization

Min Jin Chong , David Forsyth

分类：计算机视觉

2021-12-22

虽然近期拍摄图像造型化的最近进步，但这些方法无法捕捉对人类显而易见的文体细节。诸如眼睛形状的细节，线的粗糙度，对于模型来说特别困难，特别是在有限的数据设置下。在这项工作中，我们的目的是执行一个拍摄的一拍图像风格化，以获得细节。给定参考样式图像，我们使用GaN反转和Finetune使用该近似配对数据来近似配对的实际数据。然后，我们鼓励风格终体概括，以便学习风格可以应用于所有其他图像。

translated by 谷歌翻译

StyleGAN of All Trades: Image Manipulation with Only Pretrained StyleGAN

Min Jin Chong , Hsin-Ying Lee , David Forsyth

分类：计算机视觉 | 机器学习

2021-11-02

最近，由于高质量的发电和解除戒开的潜在空间，Stylegan已经启用了各种图像操纵和编辑任务。但是，通常需要额外的架构或特定于特定的培训范式来实现不同的任务。在这项工作中，我们深入了解样式甘蓝的空间属性。我们展示使用普雷雷达的样式总是以及一些操作，没有任何额外的架构，我们可以相当于各种任务的最先进的方法执行，包括图像混合，全景生成，从单个图像，可控的生成本地多模式图像到图像转换和属性传输。所提出的方法简单，有效，有效，适用于任何现有的预制样式模型。

translated by 谷歌翻译

CatchBackdoor: Backdoor Testing by Critical Trojan Neural Path Identification via Differential Fuzzing

Haibo Jin , Ruoxi Chen , Jinyin Chen , Yao Cheng , Chong Fu , Ting Wang , Yue Yu , Zhaoyan Ming

分类：人工智能 | 计算机视觉

2021-12-24

在现实世界应用中的深度神经网络（DNN）的成功受益于丰富的预训练模型。然而，回溯预训练模型可以对下游DNN的部署构成显着的特洛伊木马威胁。现有的DNN测试方法主要旨在在对抗性设置中找到错误的角壳行为，但未能发现由强大的木马攻击所制作的后门。观察特洛伊木马网络行为表明，它们不仅由先前的工作所提出的单一受损神经元反射，而且归因于在多个神经元的激活强度和频率中的关键神经路径。这项工作制定了DNN后门测试，并提出了录音机框架。通过少量良性示例的关键神经元的差异模糊，我们识别特洛伊木马路径，特别是临界人，并通过模拟所识别的路径中的关键神经元来产生后门测试示例。广泛的实验表明了追索者的优越性，比现有方法更高的检测性能。通过隐秘的混合和自适应攻击来检测到后门的录音机更好，现有方法无法检测到。此外，我们的实验表明，录音所可能会揭示模型动物园中的模型的潜在潜在的背面。

translated by 谷歌翻译

Traffic Flow Prediction via Variational Bayesian Inference-based Encoder-Decoder Framework

Jianlei Kong , Xiaomeng Fan , Xue-Bo Jin , Min Zuo

分类：机器学习

2022-12-14

Accurate traffic flow prediction, a hotspot for intelligent transportation research, is the prerequisite for mastering traffic and making travel plans. The speed of traffic flow can be affected by roads condition, weather, holidays, etc. Furthermore, the sensors to catch the information about traffic flow will be interfered with by environmental factors such as illumination, collection time, occlusion, etc. Therefore, the traffic flow in the practical transportation system is complicated, uncertain, and challenging to predict accurately. This paper proposes a deep encoder-decoder prediction framework based on variational Bayesian inference. A Bayesian neural network is constructed by combining variational inference with gated recurrent units (GRU) and used as the deep neural network unit of the encoder-decoder framework to mine the intrinsic dynamics of traffic flow. Then, the variational inference is introduced into the multi-head attention mechanism to avoid noise-induced deterioration of prediction accuracy. The proposed model achieves superior prediction performance on the Guangzhou urban traffic flow dataset over the benchmarks, particularly when the long-term prediction.

translated by 谷歌翻译

Optimizing Learning Rate Schedules for Iterative Pruning of Deep Neural Networks

Shiyu Liu , Rohan Ghosh , John Tan Chong Min , Mehul Motani

分类：机器学习 | 人工智能

2022-12-09

The importance of learning rate (LR) schedules on network pruning has been observed in a few recent works. As an example, Frankle and Carbin (2019) highlighted that winning tickets (i.e., accuracy preserving subnetworks) can not be found without applying a LR warmup schedule and Renda, Frankle and Carbin (2020) demonstrated that rewinding the LR to its initial state at the end of each pruning cycle improves performance. In this paper, we go one step further by first providing a theoretical justification for the surprising effect of LR schedules. Next, we propose a LR schedule for network pruning called SILO, which stands for S-shaped Improved Learning rate Optimization. The advantages of SILO over existing state-of-the-art (SOTA) LR schedules are two-fold: (i) SILO has a strong theoretical motivation and dynamically adjusts the LR during pruning to improve generalization. Specifically, SILO increases the LR upper bound (max_lr) in an S-shape. This leads to an improvement of 2% - 4% in extensive experiments with various types of networks (e.g., Vision Transformers, ResNet) on popular datasets such as ImageNet, CIFAR-10/100. (ii) In addition to the strong theoretical motivation, SILO is empirically optimal in the sense of matching an Oracle, which exhaustively searches for the optimal value of max_lr via grid search. We find that SILO is able to precisely adjust the value of max_lr to be within the Oracle optimized interval, resulting in performance competitive with the Oracle with significantly lower complexity.

translated by 谷歌翻译

Imbalanced Nodes Classification for Graph Neural Networks Based on Valuable Sample Mining

Min Liu , Siwen Jin , Luo Jin , Shuohan Wang , Yu Fang , Yuliang Shi

分类：机器学习 | 计算机视觉

2022-09-18

节点分类是图神经网络中的重要任务，但是大多数现有研究都认为来自不同类别的样本是平衡的。但是，类不平衡问题是普遍的，可能会严重影响模型的性能。减少数据集对模型培训的不利影响对于改善模型的性能至关重要。因此，基于传统算法级别的方法来重建新的损失函数FD损失。首先，我们提出样品不种种量的距离，以根据分布过滤边缘样品和简单样品。然后，根据不抗测量距离定义了权重系数，并在损耗函数加权项中使用，以便损耗函数仅集中在有价值的样本上。与节点分类任务中的现有方法相比，几个基准的实验表明，我们的损耗函数可以有效地解决样品节点不平衡问题并将分类精度提高4％。

translated by 谷歌翻译

DropNet: Reducing Neural Network Complexity via Iterative Pruning

John Tan Chong Min , Mehul Motani

分类：机器学习 | 人工智能

2022-07-14

现代深度神经网络需要大量的计算时间和训练和部署的功率，这限制了它们在边缘设备上的使用。受彩票票证假设中的迭代重量修剪的启发，我们提出了Dropnet，这是一种迭代修剪方法，可修剪节点/过滤器以降低网络复杂性。Dropnet迭代删除所有训练样本中平均激活值最低的节点/过滤器。从经验上讲，我们表明Dropnet在各种情况下都具有强大的功能，包括使用MNIST，CIFAR-10和Tiny Imagenet数据集，包括MLP和CNN。我们表明，可以去除多达90％的节点/过滤器，而不会出现任何明显的准确性损失。最终修剪的网络即使在重新定位权重和偏见的情况下也表现良好。Dropnet也具有与Oracle相似的精度，该甲骨文一次贪婪地去除节点/过滤器，以最大程度地减少训练损失，从而突出其有效性。

translated by 谷歌翻译

Brick Tic-Tac-Toe: Exploring the Generalizability of AlphaZero to Novel Test Environments

John Tan Chong Min , Mehul Motani

分类：机器学习 | 人工智能

2022-07-13

传统的增强学习（RL）环境通常在培训和测试阶段都相同。因此，当前的RL方法在很大程度上不能推广到概念上相似但与已训练的方法不同的测试环境，我们将其称为新型测试环境。为了将RL研究推向可以推广到新的测试环境的算法，我们介绍了砖Tic-TAC-TOE（BTTT）测试床，其中在测试环境中的砖位与训练环境中的砖位不同。使用BTTT环境上的圆形锦标赛，我们表明传统的RL国家搜索方法，例如Monte Carlo Tree Search（MCTS）和Minimax，比Alphazero更广泛地对新型测试环境更具概括性。令人惊讶的是，Alphazero已被证明可以在GO，Chess和Shogi等环境中实现超人的性能，这可能会导致人们认为它在新颖的测试环境中的性能很好。我们的结果表明，BTTT虽然很简单，但足够丰富，可以探索Alphazero的普遍性。我们发现，仅增加MCT的lookahead迭代是不足以使Alphazero推广到一些新型的测试环境。相反，增加各种培训环境有助于逐步改善所有可能的起始砖配置中的普遍性。

translated by 谷歌翻译

Peripheral Vision Transformer

Juhong Min , Yucheng Zhao , Chong Luo , Minsu Cho

分类：计算机视觉

2022-06-14

人类视觉具有一种特殊类型的视觉处理系统，称为外围视觉。外围视觉将整个视野分为多个轮廓区域，使我们能够在不同区域感知各种视觉特征。在这项工作中，我们采用了一种以生物学启发的方法，并探索以建模深度神经网络中的外围视觉以进行视觉识别。我们建议将编码编码的外围位置纳入多头自我发项层，以使网络学会将视野分配到给定培训数据的各种外围区域。我们在大规模的成像网数据集上评估了所提出的网络，称为Pervit，并系统地研究了机器感知模型的内部工作原理，这表明网络学会了与人类视觉相似的感知视觉数据。各种模型大小的图像分类任务中的最新性能证明了该方法的功效。

translated by 谷歌翻译

Do Inpainting Yourself: Generative Facial Inpainting Guided by Exemplars

Wanglong Lu , Hanli Zhao , Xianta Jiang , Xiaogang Jin , Yongliang Yang , Min Wang , Jiankai Lyu , Kaijie Shi

分类：计算机视觉 | 人工智能

2022-02-13

我们提出了Exe-Gan，这是一种新型的使用生成对抗网络的典范引导的面部介绍框架。我们的方法不仅可以保留输入面部图像的质量，而且还可以使用类似示例性的面部属性来完成图像。我们通过同时利用输入图像的全局样式，从随机潜在代码生成的随机样式以及示例图像的示例样式来实现这一目标。我们介绍了一个新颖的属性相似性指标，以鼓励网络以一种自我监督的方式从示例中学习面部属性的风格。为了确保跨地区边界之间的自然过渡，我们引入了一种新型的空间变体梯度反向传播技术，以根据空间位置调整损耗梯度。关于公共Celeba-HQ和FFHQ数据集的广泛评估和实际应用，可以验证Exe-GAN的优越性，从面部镶嵌的视觉质量来看。

translated by 谷歌翻译